03. 另一个网格世界示例

另一个网格世界示例

在这个简单的网格世界示例中,你通过肉眼观察也许就能轻松地确定最优策略。当然,解决现实中的马尔可夫决策流程 (MDP) 问题将会难得多!:)

为了避免使理论知识过于复杂,我们将使用这个简单的示例来介绍解决非常复杂的 MDP 问题用到的相同算法。